Recuperação de Informação em Coleções Médicas Utilizando Categorização Automática de Documentos

نویسندگان

  • Rodrigo de Freitas Vale
  • Luciano R. S. de Lima
  • Berthier A. Ribeiro-Neto
  • Alberto H. F. Laender
  • Hermes R. Freitas-Junior
چکیده

A current and important research issue is the retrieval of relevant medical information. In fact, while the medical knowledge expands at a rate never observed before, its diffusion is slow. One of the main reasons is the difficulty in locating the relevant information in the modern and large medical text collections of today. In this work, we introduce a framework, based on Bayesian belief networks, that allows combining information derived from the text of the documents with information on the diseases related to the medical documents (obtained from an automatic categorization process). This leads to a new ranking method which we evaluate using a medical reference collection (the Oshumed collection). Our results indicate that this combination of evidences (document text and diseases related to the document) might yield considerable gains in retrieval performance. When the queries are strongly related to diseases, these gains might be as high as 84%. Our approach is quite distinct from previous ones and shows that information generated by an automatic categorization procedure can be used effectively to improve the quality of the answers provided by an information retrieval (IR) system specialized in the medical domain. 1 Introdução A evolução tecnológica ocorrida nos últimos anos nas áreas de informática e telecomunicações e o aumento das atividades e do conhecimento humano têm permitido que grandes volumes de dados circulem pelo mundo, especialmente através da Internet, tornando a tarefa de recuperação de informação difícil, custosa e muitas vezes complexa para os usuários [2, 3]. A principal razão dessa complexidade ocorre porque boa parte da informação disponível na Internet encontra-se na forma textual e sem a definição explícita de um esquema de dados ou estrutura. Logo, a investigação de novos modelos, algoritmos e ferramentas que possam ajudar os usuários na formulação de suas consultas e na melhoria da qualidade (precisão) das respostas geradas é de grande relevância. Atualmente, a forma mais disseminada de recuperar informação na Internet é a utilização de máquinas de busca e meta-busca, que em geral utilizam técnicas de recuperação de informação baseadas no modelo vetorial proposto por Salton ou em uma de suas extensões [1, 2, 15]. Isso ocorre porque o modelo vetorial é relativamente simples de ser implementado e bem eficiente quando aplicado a coleções genéricas de documentos. O crescimento, porém, de grandes portais e bibliotecas digitais especializadas tem obrigado os pesquisadores a investigar novos modelos que permitam agregar ao processo de recuperar informação características específicas desses ambientes especializados, sem, no entanto, aumentar a complexidade e a eficiência dos algoritmos já implementados, sendo esse um grande desafio corrente. Dentre as diversas áreas especializadas do conhecimento, destacamos a disponibilidade da literatura médica na Internet, que cresce atualmente a uma taxa em torno de 7% ao ano e cuja tendência é dobrar sua base de dados nos próximos 10 anos. Essa disponibilidade facilita o acesso à informação médica, mas também introduz problemas adicionais. Enquanto o conhecimento médico se expande a taxas muito altas, sua difusão ainda é baixa. As barreiras para a difusão do conhecimento médico são muitas e incluem: o tempo limitado para busca bibliográfica, o limitado acesso a fontes de informação, e a grande dificuldade dos profissionais médicos em identificar a informação relevante dentro de vastas coleções médicas disponíveis atualmente [11]. Neste trabalho, nos concentramos neste último problema, ou seja, como melhorar a qualidade das respostas retornadas para consultas de usuários interessados em coleções médicas. Uma abordagem padrão para o problema é selecionar uma boa técnica de recuperação de informação (RI) e aplicá-la ao domínio médico. Neste trabalho, avaliamos a efetividade desta estratégia usando uma coleção de referência médica, chamada OHSUMED [6], bastante difundida na área de RI médica. Estudamos também uma abordagem alternativa que consiste em desenvolver um arcabouço que permita combinar técnicas de RI com conhecimento obtido no domínio médico. Consideramos uma forma específica de conhecimento médico que é a informação sobre doenças contida nos documentos da coleção médica. Dada uma coleção médica, a informação sobre doenças pode ser gerada através do assinalamento de códigos CID (Classificação Internacional de Doenças) aos documentos da coleção. Isto pode ser realizado de forma automática e com grande eficiência [8, 12], conforme discutiremos mais tarde. A partir da informação sobre doenças vinculada aos documentos médicos (através de códigos CID), estudamos o problema de como aumentar a qualidade das respostas geradas, isto é, como aumentar o desempenho da recuperação de informação. Para combinar a informação derivada dos códigos CID com a informação contida nos textos dos documentos, que é a informação utilizada pelos algoritmos de ordenação tradicionais de RI, adotamos o arcabouço de Redes Bayesianas de Crenças [13, 14]. Redes Bayesianas de Crenças são úteis porque elas permitem combinar fontes de evidência distintas de uma maneira consistente. Além disso, elas provêem uma ferramenta de modelagem intuitiva que facilita capturar a influência de parâmetros-chave do problema que está sendo modelado. O arcabouço Bayesiano que adotamos conduz a um novo método para ordenação (ranking) dos resultados que tira vantagem não só da informação textual do documento, mas também da informação relacionada a doenças existente nos documentos. Através de experimentação, mostramos que esse método leva a uma melhoria no desempenho da recuperação de informação. Quando somente consultas que são fortemente relacionadas a doenças são consideradas, a melhoria na qualidade (precisão) das respostas foi acima de 84%, quando comparada a métodos de RI tradicionais. Em resumo, este trabalho apresenta um modelo que combina técnicas tradicionais de RI e categorização automática de documentos textuais no processo de recuperação de informação médica, melhorando consideravelmente a qualidade (precisão) das respostas em coleções bibliográficas médicas. O artigo é organizado como se segue. Na Seção 2, discutimos trabalhos relacionados. Na Seção 3, descrevemos brevemente o algoritmo de categorização automática de documentos médicos que utilizamos. Na Seção 4, descrevemos nossa função de ordenação de documentos e algumas de suas variações. Na Seção 5, discutimos os resultados experimentais encontrados utilizando a coleção de referência OHSUMED. Na Seção 6, apresentamos nossas conclusões. 2 Trabalhos Relacionados Categorização automática de documentos pode ser definida resumidamente como o processo de assinalar categorias de uma taxonomia, previamente definidas, a documentos através da comparação de cada categoria com as características textuais contidas no documento. Atualmente, a categorização automática é usada em diferentes aplicações como classificação, filtragem, e recuperação de informação. Aplicações relacionadas a recuperação de informação, em particular, vêm recebendo uma atenção especial, como descrevemos a seguir. Yang e Chute propuseram um método, chamado de Redes Especialistas [18], para a categorização e recuperação de textos. Esse método usa um conjunto de documentos manualmente categorizados como uma base de treino para aprender a associação categoria-palavra. Tal associação então é aplicada para vincular categorias a documentos arbitrários baseando-se nas palavras encontradas nesses documentos. Uma outra abordagem, proposta por Lam et al. [7], também consiste em um método automático de categorização e recuperação de informação. O método de categorização é derivado do paradigma de máquinas de aprendizado conhecido como aprendizado baseado em instâncias. O método de recuperação de informação computa dois rankings: um para o texto do documento e o outro para as categorias do documento. Essa abordagem propõe somar ambos os rankings para gerar uma ordenação final. A cada ranking é associado um peso pré-definido de forma a controlar o impacto do mesmo sobre o ranking final. Nosso trabalho está relacionado com esses métodos, porém usamos técnicas diferentes para a categorização e recuperação de documentos. A categorização automática de documentos usada por nós é a proposta pelo modelo HiMeD [9, 10, 8, 12] e usamos Redes Bayesianas de Crenças [13, 14, 16, 17] para unir os rankings gerados pelo texto e pelas categorias do documento. Redes Bayesianas de Crenças oferecem o formalismo adequado para representar, quantificar, e combinar duas ou mais fontes de evidências no cálculo de um ranking para os documentos que pertencem ao conjunto de respostas. Neste trabalho, usamos esse método para representar e combinar evidências de informações baseadas em conceitos e em textos de forma similar como discutido em [13, 16]. 3 O Modelo HiMeD Nesta seção, apresentamos uma descrição resumida do Modelo Hierárquico para Categorização Automática de Documentos Médicos (modelo HiMeD), proposto em [9, 10, 8, 12] e que serve como um dos pilares de sustentação do método de fusão proposto neste trabalho. A idéia desse modelo surgiu a partir da observação de que os especialistas em codificação médica resolvem grande parte dos seus problemas de assinalar códigos de doenças a documentos médicos comparando o conteúdo desses documentos com o conteúdo de um índice alfabético hierárquico existente em um padrão de codificação, como, por exemplo, a Classificação Internacional de Doenças da Organização Mundial de Saúde, revisão 9 (CID-9) [4], e da constatação de que os modelos clássicos de recuperação de informação não se aplicam de forma adequada a esse problema, pois não consideram essa hierarquia de termos na sua resolução. Para compreendermos o modelo proposto, é essencial entender a organização estrutural da CID-9. A CID-9 é organizada de forma hierárquica em quatro níveis de código, chamados de Capítulo, Seção, Categoria e Subcategoria, sendo os níveis de Categoria e Subcategoria utilizados em geral como códigos de referência de classificação por possuírem maiores detalhes de doenças, lesões e óbitos. I D oenças Infecciosas e Parasitárias I .1 Doenças Infecciosas Intestinais 0 01 Cólera 0 01.0 Devido ao Vibrio Cholerae 0 01.1 Devido ao Vibrio Cholerae el Tor 0 01.9 Não Especificada (a) Cólera 001.9 Antimonial 985.4 Clássica 001.0 el Tor 001.1 Indefinida 001.9 Vibrio Cholerae 001.0 el Tor 001.1 (b) Figura 1: Lista Tabular e o Índice Alfabético da CID-9. A proposta CID-9 é apresentada em dois documentos básicos: a Lista Tabular, onde os códigos e suas descrições são apresentadas, conforme mostra a Figura 1(a), e o Índice Alfabético Hierárquico, onde os conjuntos de termos associados aos códigos CID-9 correspondentes são apresentados, conforme mostra o exemplo da Figura 1(b). Nesse exemplo, a última linha identifica a doença Cólera devido ao Vibrio Cholerae El Tor que corresponde à categoria 001 e à subcategoria 001.1. Para modelar o problema de codificação automática de documentos médicos, o modelo HiMeD propõe basicamente os seguintes conceitos: 1. Um índice hierárquico de um vocabulário controlado , cujos termos indexam códigos médicos, é representado por um grafo dirigido acíclico , onde é um conjunto de vértices e é um conjunto de arestas direcionadas que conectam vértices de . A notação "!# %$& ' !( *)+ "!-, é usada para referenciar uma aresta "! que conecta os vértices e ! com grau de confiança )+ "! . Os vértices . e /! são extremos da aresta 0 1! . O vértice é chamado de vértice-pai de ! . Um vértice sem pai é chamado de vértice-raiz. O vértice 2 é o vértice-pai de todos os vértices-raízes. Para cada vértice 435 , é associado um único termo t( ) de . Para cada aresta 0 1! são associados um conjunto

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem ...

متن کامل

Ontologia dos Eventos Jurídicos: Contribuições da Semântica Verbal

This paper presents a preliminary study on the semantic description of the verbs of the Brazilian legal field. This is a study of the verbal semantics in order to construct a legal ontology of events. This work includes an exemplification of the analysis to be performed for the construction of ontology, presenting a ontology formalization proposal. Resumo. Este artigo apresenta um estudo prelim...

متن کامل

Incorporação de representação vetorial distribuída de palavras e parágrafos na classificação de SMS SPAM

Resumo—A classificação automática de SMS spam é um problema desafiador, pois ao contrário de outros documentos (como e-mails, por exemplo), esses textos são extremamente curtos, com no máximo 140 caracteres. Além disso, eles normalmente são escritos utilizando gírias, abreviaturas e símbolos como emoticons. Técnicas de pré-processamento tem sido aplicadas para contornar esse problema, como o us...

متن کامل

Caracterização e Processamento de Expressões Temporais em Português

A dimensão temporal é um elemento estruturante fundamental para a informação veiculada em textos e constitui um desafio para o processamento de ĺıngua natural, sendo igualmente importante para muitas aplicações do processamento das ĺınguas. Este artigo constitui mais um passo para o ambicioso objectivo de tratamento da informação temporal. Para tal, apresenta-se uma proposta de classificação da...

متن کامل

Classificação de Prioridade de Tweets utilizando Máquinas de Vetor de Suporte (Tweet Priority Classification Using Support Vector Machines) [in Portuguese]

Resumo. Este artigo provê resultados iniciais sobre a tarefa de classificação automática de prioridade de tweets, como forma de amenizar a sobrecarga de informação sofrida por usuários do Twitter. Para tanto, aplicamos Máquinas de Vetor de Suporte a um extenso conjunto de exemplos contendo tweets manualmente classificados por nove usuários. Mostramos resultados promissores mesmo com a quantidad...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2001